一元线性回归

变量间的关系有两类:一类可用函数关系表示,称为确定性关系;另一类关系不能用函数来表示,称为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但可以借助函数关系来表示它们之间的统计规律。回归分析方法是处理变量之间相关关系的一种统计方法,它不仅提供建立变量间关系的数学表达式—经验公式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性。

一元线性回归模型的一般形式

如果已知实际检测数据 $\left(x_{i}, y_{i}\right)(i=1,2, \cdots, n)$ 大致成为一条直线, 则变量 $y$ 与 $x$ 之间的关系大致可以看作是近似的线性关系。一般来说,这些点又不 完全在一条直线上,这表明 $y$ 与 $x$ 之间的关系还没有确切到给定 $x$ 就可以唯 一确定 $y$ 的程度。事实上,还有许多其他不确定因素产生的影响, 如果主要 是研究 $y$ 与 $x$ 之间的关系,

则可以假定有如下关系: $$ y=\beta_{0}+\beta_{1} x+\varepsilon, $$ 其中 $\beta_{0}$ 和 $\beta_{1}$ 是未知知待定常数, $\varepsilon$ 表示其他随机因素对 $y$ 的影响, 并且服 从于 $N\left(0, \sigma^{2}\right)$ 分布。上述模型称为一元线性回归模型, $x$ 称为回归变量, $y$ 称为响应变量, $\beta_{0}$ 和 $\beta_{1}$ 称为回归系数。

参数 $\beta_{0}$ 和 $\beta_{1}$ 的最小二乘估计

定一元线性回归模型, 首先是要确定回归系数 $\beta_{0}$ 和 $\beta_{1}$ 。 以下用最小二乘法 估计参数 $\beta_{0}$ 和 $\beta_{1}$ 的值, 即要确定一组 $\beta_{0}$ 和 $\beta_{1}$ 的估计值, 使得回归模型与直线方程 $y=\beta_{0}+\beta_{1} x$ 在所有数据点 $\left(x_{i}, y_{i}\right)(i=1,2, \cdots, n)$ 都比较“接近”。

为了刻画这种“接近”程度, 只要使 $y$ 的观察值与估计值偏差的平方和最 小, 即只需求函数 $$ Q=\sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2} $$ 的最小值,这种方法叫最小二乘法。

为此, 分别对上式求关于 $\beta_{0}$ 和 $\beta_{1}$ 的偏导数, 并令它们等于零, 得到正规方程组 $$ \left\{\begin{array}{l} n \beta_{0}+\left(\sum_{i=1}^{n} x_{i}\right) \beta_{1}=\sum_{i=1}^{n} y_{i}, \\ \left(\sum_{i=1}^{n} x_{i}\right) \beta_{0}+\left(\sum_{i=1}^{n} x_{i}^{2}\right) \beta_{1}=\sum_{i=1}^{n} x_{i} y_{i} . \end{array}\right. $$

求解得 $$ \hat{\beta}_{1}=\frac{L_{x y}}{L_{x x}}, \quad \hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}, $$ 其中 $\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}, \bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}, \quad L_{x y}=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right), \quad L_{x x}=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$ 。

于是, 所求的线性回归方程为 $$ \hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x . $$ 若将 $\hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}$ 代入上式,则线性回归方程变为 $$ \hat{y}=\bar{y}+\hat{\beta}_{1}(x-\bar{x}) . $$

相关性检验与判定系数(拟合优度)

建立一元线性回归模型的目的, 就是试图以 $x$ 的线性函数 $\left(\hat{\beta}_{0}+\hat{\beta}_{1} x\right)$ 来解释 $y$ 的变异。那么, 回归模型 $\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x$ 究竟能以多大的精度来解释 $y$ 的变异呢? 又有多大部分是无法用这个回归方程来解释的呢? $y_{1}, y_{2}, \cdots, y_{n}$ 的变异程度可采用样本方差来测度, 即 $$ s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2} . $$

得拟合值 $\hat{y}_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i}=\bar{y}+\hat{\beta}_{1}\left(x_{i}-\bar{x}\right)$, 所以拟合值 $\hat{y}_{1}, \hat{y}_{2}, \cdots, \hat{y}_{n}$ 的均值也是 $\bar{y}$, 其变异程度可以用下式测度 $$ \hat{s}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2} . $$ 下面看一下 $s^{2}$ 与 $\hat{s}^{2}$ 之间的关系,有 $$ \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}+\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+2 \sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)\left(\hat{y}_{i}-\bar{y}\right) . $$

由于 $$ \sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)\left(\hat{y}_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)\left(\hat{\beta}_{0}+\hat{\beta}_{1} x_{i}-\bar{y}\right) $$ $$ =\hat{\beta}_{0} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)+\hat{\beta}_{1} \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)-\bar{y} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0, $$ 其中, 由正规方程组的第 2 个式子, 知 $\hat{\beta}_{1} \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0$ 。

因此, 得到正交分解式为 $$ \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2} . $$ 记 $S S T=\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=L_{y y}$, 这是原始数据 $y_{i}$ 的总变异平方和, 其自由 度为 $d f_{T}=n-1$; $\operatorname{SSR}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}$, 这是用拟合直线 $\hat{y}_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i}$ 可解释的变异平方和 其自由度为 $d f_{R}=1$ ; $\operatorname{SSE}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}$, 这是残差平方和,其自由度为 $d f_{E}=n-2$ 。

所以, 有 $$ S S T=S S R+S S E, d f_{T}=d f_{R}+d f_{E} . $$ 从上式可以看出, $y$ 的变异是由两方面的原因引起的;一是由于 $x$ 的取 值不同, 而给 $y$ 带来的系统性变异; 另一个是由除 $x$ 以外的其它因素的影响。

注意到对于一个确定的样本 (一组实现的观测值), SST 是一个定值。 所以, 可解释变异 $S S R$ 越大, 则必然有残差SSE 越小。这个分解式可同时从 两个方面说明拟合方程的优良程度:

因此, 可以定义一个测量标准来说明回归方程对原始数据的拟合程度, 这就是所谓的判定系数,有些文献上也称之为拟合优度。 判定系数是指可解释的变异占总变异的百分比, 用 $R^{2}$ 表示, 有 $$ R^{2}=\frac{S S R}{S S T}=1-\frac{S S E}{S S T} . $$

从判定系数的定义看, $R^{2}$ 有以下简单性质:

判定系数是一个很有趣的指标,一方面它可以从数据变异的角度指出 可解释的变异占总变异的百分比,从而说明回归直线拟合的优良程度; 另一 方面, 它还可以从相关性的角度, 说明因变量 $y$ 与拟合变量 $\hat{y}$ 的相关程度, 从这个角度看, 拟合变量 $\hat{y}$ 与因变量 $y$ 的相关度越大, 拟合直线的优良度就 越高。

定义 $x$ 与 $y$ 的相关系数 $$ r=\frac{L_{x y}}{\sqrt{L_{x x} L_{y y}}}, $$ 它反映了 $x$ 与 $y$ 的线性关系程度。可以证明 $|r| \leq 1$ 。 $r=\pm 1$ 表示有精确的线性关系。如 $y_{i}=a+b x_{i}(i=1,2, \cdots, n)$, 则 $b>0$ 时 $r=1$, 表示正线性相关; $b<0$ 时 $r=-1$, 表示负线性相关。 可以证明, $y$ 与自变量 $x$ 的相关系数 $r=\pm \sqrt{R^{2}}$, 而相关系数的正、负号 与回归系数 $\hat{\beta}_{1}$ 的符号相同。

回归方程的显著性检验

在以上的讨论中,我们假定 $y$ 关于 $x$ 的回归方程 $f(x)$ 具有形式 $\beta_{0}+\beta_{1} x$ 。 在实际中, 需要检验 $f(x)$ 是否为 $x$ 的线性函数, 若 $f(x)$ 与 $x$ 成线性函数为真, 则 $\beta_{1}$ 不应为零。因为若 $\beta_{1}=\mathbf{0}$, 则 $y$ 与 $x$ 就无线性关系了。因此我们需要做假 设检验。

提出假设 $H_{0}: \beta_{1}=\mathbf{0}, H_{1}: \beta_{1} \neq \mathbf{0}$. 若假设 $H_{0}: \beta_{1}=0$ 成立, 则 $S S E / \sigma^{2}$ 与 $S S R / \sigma^{2}$ 是独立的随机变量, 且 $$ \operatorname{SSE} / \sigma^{2} \sim \chi^{2}(n-2), S S R / \sigma^{2} \sim \chi^{2}(1), $$ 使用检验统计量 $$ F=\frac{S S R}{\operatorname{SSE} /(n-2)} \sim F(1, n-2) . $$

对于检验水平 $\alpha$, 按自由度 $\left(n_{1}=1, n_{2}=n-2\right)$ 查 $F$ 分布表, 得到拒绝 域的临界值 $F_{\alpha}(1, n-2)$ (这里 $F_{\alpha}(1, n-2)$ 为 $F(1, n-2)$ 分布的上 $\alpha$ 分位数, 即 $\left.P\left\{F>F_{\alpha}(1, n-2)\right\}=\alpha\right)$ 。决策规则为

案例

适量饮用葡萄酒可以预防心脏病,下表是19个国家每人平均所饮用葡萄酒中所摄取酒精升数,以及一年中因心脏病死亡率(每10万人死亡人数)

为了得到线性回归模型的一些检验统计量,我们可以使用statsmodels库函数进行计算。statsmodels可以使用两种模式求解回归分析模型,一种是基于公式的模式,另一种是基于数组的模式。

参考文献